В настоящее время не используются адекватные математические средства для анализа расположения компонентов в массивах естественно упорядоченных данных различной природы, в том числе – слов или букв в текстах, нотных знаков в записях музыкальных произведений, символов в знаковых последовательностях, данных мониторинга, чисел, отображающих упорядоченные результаты измерений, компонентов в генетических текстах. Поэтому затруднены или невозможны измерение и сравнение порядка следования сообщений, выделенных в длинных информационных цепях. Основные подходы при сравнении символьных последовательностей используют вероятностные модели и статистический инструментарий, попарное и множественное выравнивание, позволяющее определить степень сходства цепей с помощью мер редакционного расстояния. В некотором роде экзотическим являются использование псевдоспектрального и фрактального представления символьных последовательностей. Следует особо отметить «проклятие априорного неосознаваемого знания» об очевидной упорядоченности цепи, которое широко распространено в математической лингвистике, биоинформатике (математической биологии) и других аналогичных областях науки. Отмеченные подходы почти не уделяют внимания исследованию и обнаружению закономерностей конкретного расположения всех знаков, слов, компонентов массивов данных, составляющих отдельную целостную последовательность. Объектом исследования в наших работах является специальным образом организованный числовой кортеж – расположение компонентов (строй) в символьных или числовых последовательностях. При этом в качестве основы для количественного отображения строя цепи используются интервалы между ближайшими одинаковыми её компонентами. Перемножение всех интервалов или суммирование их логарифмов позволяет получить числа, которые однозначно отображают расположение компонентов в конкретной последовательности. Эти числа, в свою очередь, позволяют получить целый набор нормированных характеристик строя, среди которых средний геометрический интервал и его логарифм. Такие характеристики на удивление точно отражают расположение компонентов в знаковых последовательностях. В данной работе представлен подход для количественного сравнения построений массивов естественно упорядоченных данных (информационных цепей) произвольной природы. Предложены меры сходства-расхождения и процедура сравнения строя цепей, основанные на выделении списка совпадающих и сходных по характеристикам строя подпоследовательностей (компонентов). При этом для быстрого выделения списка совпадающих компонентов используются ранговые распределения. В работе представлен инструментарий для сравнения построений информационных цепей и продемонстрированы некоторые его возможности при исследовании строя нуклеотидных последовательностей.
Анализ сетей разнообразной природы, которыми являются сети цитирования, а также социальные или информационно-коммуникационные сети, включает изучение топологических свойств, позволяющих оценивать взаимосвязи между узлами сети и различные характеристики, такие как плотность и диаметр сети, связанные подгруппы узлов и тому подобное. Для этого сеть представляется в виде графа – совокупности вершин и ребер между ними. Одной из важнейших задач анализа сетей является оценивание значимости узла (или в терминах теории графов – вершины). Для этого разработаны различные меры центральности, позволяющие оценить степень значимости вершин сетевого графа в структуре рассматриваемой сети.
Существующее многообразие мер центральности порождает проблему выбора той, которая наиболее полно описывает значимость центральность узла.
Актуальность работы обусловлена необходимостью анализа мер центральности для определения значимости вершин, что является одной из основных задач изучения сетей (графов) в практических приложениях.
Проведенное исследование позволило с использованием метода главных компонент среди известных мер центральности выявить коллинеарные меры, которые в дальнейшем можно исключать из рассмотрения. Это позволяет уменьшить вычислительную сложность расчетов, что особенно важно для сетей с большим числом узлов, и повысить достоверность интерпретации получаемых результатов при оценивании значимости узла в рамках анализируемой сети при решении практических задач.
Выявлены закономерности представления различных мер центральности в пространстве главных компонент, что позволяет классифицировать их с точки зрения близости образов узлов сети, формируемых в определяемом применяемыми мерами центральности пространстве.
1 - 2 из 2 результатов